Статья 5117

Название статьи

ПРОЦЕДУРА МАШИННОГО ОБУЧЕНИЯ В ЗАДАЧЕ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКИ ТЕКСТА
И ОПРЕДЕЛЕНИЯ ЧАСТЕЙ РЕЧИ В ФЛЕКТИВНЫХ ЯЗЫКАХ

Авторы

Тарасов Дмитрий Викторович, кандидат технических наук, доцент, кафедра высшей и прикладной
математики, Пензенский государственный университет (Россия, г. Пенза, ул. Красная, 40), tarasovdv@mail.ru
Романов Никита Алексеевич, магистрант, Московский государственный университет имени М. В. Ломоносова (Россия, г. Москва, ул. Ленинские Горы, 1), nikromanov1995@gmail.com

Индекс УДК

 004.9

DOI

 10.21685/2072-3059–2017-1-5

Аннотация

Актуальность и цели. Компьютерный анализ текста, одним из этапов которого является автоматическая разметка текста по частям речи (POS-tagging), необходимо проводить для целого ряда повседневных задач во многих IT-отраслях (таких как продвижение сайтов в Интернете). Однако достаточно качественно выполнить морфологическую разметку для русского языка значительно сложнее, нежели для английского. Хорошие библиотеки, реализующие такой функционал, либо медленные, либо имеют закрытый исходный код, либо требуют дополнительного анализа. Цель работы – реализация методов распознавания текста для русского языка.
Материалы и методы. Реализация методов распознавания проводилась на основе метода опорных векторов применительно к задачам классификации объектов и с использованием национального корпуса русского языка – СинТагРус. Программная реализация машинного обучения осуществлялась на языке С/С++.
Результаты. В работе был предложен алгоритм классификации для анализа текста и определения частей речи русского языка в текстах различной тематики. Данный алгоритм обработки текста требует для качественного анализа наличия большой репрезентативной выборки. Предложена эффективная схема выбора характеристик (признаков) для построения процедуры обучения.
Выводы. Процедура машинного обучения продемонстрировала эффективность порядка 87–95 % для анализа частей речи в предложениях различнойтематической направленности (на примере русского языка) и может быть использована при компьютерном анализе текста в задачах IT-отрасли.

Ключевые слова

метод опорных векторов, процедура машинного обучения, линейные классификаторы, условия Каруша – Куна – Таккера.

 

 Скачать статью в формате PDF

Список литературы

 1. Флективные языки. – URL: http://dic.academic.ru/dic.nsf/bse/145088/%D0%A4%D0%BB%D0%B5% D0%BA%D1%82%D0%B8%D0%B2%D0%BD%D1%8B%D0%B5
2. Fletcher, R. Practical methods of optimization / R. Fletcher. – 2nd edition. – New York : John Wiley and Sons, Inc., 1987. – 436 s.
3. McCormick, G. P. Non Linear Programming: Theory, Algorithms and Applications / G. P. McCormick. – New York : John Wiley and Sons, Inc., 1983. – 444 s.
4. Christopher, J. C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition / J. C. Christopher // Data Mining and Knowledge Discovery. – 1998. – Vol. 2. – P. 121–167.
5. Воронцов, К. В. Лекции по методу опорных векторов / К. В. Воронцов. – URL: http://www.ccas.ru/voron/download/SVM.pdf
6. Национальный корпус русского языка. – URL: http://www. ruscorpora.ru
7. Crammer, K. On the learnability and design of output codes for multiclass problems / K. Crammer, Y. Singer. – Computational Learning Theory. – San Francisco, 2000. – P. 35–46.

 

Дата создания: 08.08.2017 14:40
Дата обновления: 10.08.2017 09:20